Extracción automática de contextos definitorios en textos especializados

نویسندگان

  • Gerardo Sierra
  • Rodrigo Alarcón
  • Cesar Antonio Aguilar
چکیده

Uno de los problemas recurrentes de cualquier área de conocimiento es la organización y explicación de los términos que incluye en su campo de estudio. El reciente avance en el desarrollo de nuevas tecnologías para el trabajo terminológico ha aportado diversas herramientas para tratar de resolver este problema. Una de estas herramientas son los corpus de textos especializados en los cuales se pueden extraer automáticamente términos y definiciones. Dentro de éste marco, el Grupo de Ingeniería Lingüística desarrolla un proyecto en torno a la descripción y extracción automática de contextos definitorios (CDs), los cuales definiremos como aquellos fragmentos de un texto especializado que aportan información útil para entender un término en su contexto real, y que pueden ser puntos de inicio para la elaboración de ontologías, glosarios, diccionarios electrónicos, entre otras importantes aplicaciones. Los CDs incluyen un término, una definición y patrones definitorios, como patrones verbales (se define como, constituido por), o bien elementos estilísticos como la presencia de marcas tipográficas y variaciones en la tipografía textual que ayudan a resaltar la presencia del término o la definición (comillas, cursivas). El estudio de los CDs involucra diversas líneas de investigación que pueden ser divididas en estudios descriptivos y estudios aplicados. Por un lado, es necesario describir el comportamiento lingüístico de los elementos constitutivos de los CDs, y por otro lado es necesario elaborar una metodología para su extracción automática. Así, encontramos que el estudio lingüístico involucra un análisis descriptivo de los distintos tipos de definiciones que suelen introducir los patrones verbales definitorios. A su vez, es común que en un texto especializado no se repitan constantemente los términos. En su lugar suelen aparecer referencias anafóricas que los sustituyen y que en muchos casos ocupan el lugar del término en el contexto definitorio. A partir de estos trabajos descriptivos podemos observar que es necesario, en primer lugar, elaborar una herramienta de búsqueda para la extracción automática de CDs, y en segundo lugar, identificar automáticamente en estos contextos los elementos constitutivos: el término y la definición. Asimismo, se requiere identificar automáticamente cuál es el término en el caso en que éste se sustituye mediante una referencia anafórica. Aunque existen varios enfoques metodológicos para la extracción conceptual en textos especializados, el presente proyecto propone desarrollar un sistema completo y coherente de estructura modular, basado en información lingüística, que sea aplicable a diversos corpus textuales especializados en lengua española con el fin de extraer automáticamente términos y definiciones. Igualmente, este proyecto tiene la finalidad de conformar un Corpus de Contextos Definitorios, esto es, un repositorio electrónico para los términos, definiciones y aquellos patrones definitorios que suelen coocurrir en los CDs. En el proyecto participan varios grupos de investigación. En el aspecto más teórico, se encuentra un grupo que estudia el concepto de definición. En un aspecto teórico-práctico se analiza desde el punto de vista lingüístico la relación entre el verbo definitorio y el tipo de definición. Otro grupo en el terreno de la terminótica investiga los patrones sintácticos de los términos en español con el fin de identificar automáticamente los términos presentes en los contextos definitorios. Otro grupo más estudia el comportamiento de anáforas en CDs. Finalmente, otro grupo busca desde la lingüística computacional elaborar un extractor

برای دانلود رایگان متن کامل این مقاله و بیش از 32 میلیون مقاله دیگر ابتدا ثبت نام کنید

ثبت نام

اگر عضو سایت هستید لطفا وارد حساب کاربری خود شوید

منابع مشابه

Extracción de contextos definitorios en textos de especialidad a partir del reconocimiento de patrones lingüísticos

La extracción automática de definiciones a partir de textos de especialidad es una tarea cada vez más demandante para diferentes aplicaciones del Procesamiento de Lenguaje Natural, tales como lexicografía computacional, extracción de información, semántica computacional, sistemas preguntarespuesta, minería de textos, Web semántica y aprendizaje automático. Este artículo presenta un panorama de ...

متن کامل

Extracción automática de un diccionario de colocaciones en español

Resumen. Las colocaciones son pares de palabras de contenido que forman las relaciones sintácticas de dependencia razonables, directamente o a través de palabras funcionales. Tales pares tienden usarse en los textos más frecuentemente de lo esperado por casualidad. El texto en lenguaje natural consiste casi totalmente de tales colocaciones. La información de las palabras que forman colocaciones...

متن کامل

Anotación morfosintáctica do Corpus Técnico do Galego

O Corpus Técnico Anotado do Galego (CTAG) é a versión categorizada e lematizada do Corpus Técnico do Galego (CTG), unha colección de córpora do galego contemporáneo composta de textos monolingües especializados nos eidos do dereito, da informática, da economía, das ciencias ambientais, da socioloxía e da medicina, dispoñible en Internet desde 2006 para libre consulta (Gómez Clemente e Gómez Gui...

متن کامل

Extracción de contextos definitorios en el área de biomedicina

In this project we formulate a methodology for extracting definitional contexts from corpus of biomedicine in Spanish, in order to generate the following products: (i) a list of candidate terms, (ii) a list of candidates for definitions, and (iii) a taxonomy of biomedical terms relationships based on hyponym/hyperonym. Our methodology allows the creation of a system capable of extracting such c...

متن کامل

Los proyectos SINAMED e ISIS: Mejoras en el Acceso a la Información Biomédica mediante la integración de Generación de Resúmenes, Categorización Automática de Textos y Ontologías

Los sistemas inteligentes de acceso a la información están integrando de manera creciente técnicas de minería de texto y de análisis del contenido, y recursos semánticos como las ontologías. En los proyectos ISIS y SINAMED juegan un papel central la utilización de categorización de texto, la extracción automática de resúmenes y las ontologías, para la mejora del acceso a la información en un do...

متن کامل

ذخیره در منابع من


  با ذخیره ی این منبع در منابع من، دسترسی به آن را برای استفاده های بعدی آسان تر کنید

عنوان ژورنال:
  • Procesamiento del Lenguaje Natural

دوره 37  شماره 

صفحات  -

تاریخ انتشار 2006